Adobe acrobat DC扫描增强/OCR使用指南 您所在的位置:网站首页 adobe acrobat DC拆分怎么用 Adobe acrobat DC扫描增强/OCR使用指南

Adobe acrobat DC扫描增强/OCR使用指南

2024-05-23 22:12| 来源: 网络整理| 查看: 265

本文将针对Adobe acrobat DC中增强扫描这一功能进行详细地阐述和结果比对。

首先来讲讲为什么我们要对PDF进行增强扫描。

现在网上的PDF资源大都是通过扫描文档得到的,这些资源大都以模糊为主,答主认为清楚的文档应该是通过word或者其他格式的文件转化而来的,而非扫描文档得到的。

(答主在知乎搜索相关回答的时候,发现了一个大神自己通过一系列高级操作从实体书到得到一个完美的清晰的PDF,我只想说真滴牛皮。

链接:想把自己的书籍扫描成PDF,什么样的扫描仪比较合适? - 白垩纪的回答 - 知乎

https://www.zhihu.com/question/46979886/answer/694324952

不过对于我这种白嫖怪,使用PDF电子书一方面就是因为网上资源较为丰富,不想买实体书,小声bb,真滴贵,一本正版100rmb+;还有就是因为主要使用iPad记笔记,安利一波goodnotes)

图1:模糊举例

图二:模糊举例局部放大

通过增强扫描一方面能降低PDF的模糊程度,另一方就是能使这个PDF能被文字识别,就拿我使用的goodnotes来说,在没扫之前搜索PDF中文字是没有任何结果的,增强扫描之后就能搜索绝大部分文字(包括图片中的文字)。

现在介绍一下增强扫描的界面:

首先在界面的右侧点击如下按钮:

图3:按钮

就会在上方工具栏出现如下:

图4:工具栏

操作:增强->扫描的文档->设置,有如下界面出现:

图5:界面

彩色/灰度那一栏有如下选项:

JPEG、JPEG2000、ZIP

JPEG2000的优点(复制来的http://blog.csdn.net/lg1259156776/)

1、JPEG2000作为JPEG升级版,高压缩(低码率)是其目标,其压缩率比JPEG高约30%左右。2、JPEG2000同时支持有损和无损压缩,而JPEG只能支持有损压缩。因此它适合保存重要图片。

3、JPEG2000能实现渐进传输,这是JPEG2000的一个极其重要的特征。这也就是我们对GIF格式图像常说的“渐现”特性。它先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图象由朦胧到清晰显示,而不必是像现在的JPEG一样,由上到下慢慢显示,4、JPEG2000支持所谓的“感兴趣区域”特性,你可以任意指定图像上你感兴趣区域的压缩质量,还可以选择指定的部份先解压缩。这样我们就可以很方便的突出重点了。

ZIP也是种压缩格式,网上说这种压缩方式文件会更大,种种。

这三个选项具体的区别答主没有明显感受到,答主对比了一下这三个选项输出PDF的区别,答主反正没看出来。

网上大都选JPEG2000,我们也选这个就行。

单色也有三个选项:CCITT组4、JBIG2(有损)、JBIG2(无损)

查了一下,好像CCITT组4和JBIG2(无损)都是无损,应该是具体的编码方式不一样,网上大家也都是选JBIG2(无损),我们也选这个好了。

然后就是小文件到高质量了,这个我们最后确定滤镜再来对比一下好了。

现在到了滤镜这一选项:

1、 纠偏:打开

2、 背景去除:关-低-中-高

3、 去网纹:打开

4、 文本锐化:关-低-中-高

现在我们依照背景去除以及文本锐化的选择生成4*4表格

(这些样本都是选的最高质量,文本识别选项则是默认的)

这是原始图片:

图6:原始图片

行:背景去除 列:文本锐化关低中高关1-11-21-31-4低2-12-22-32-4中3-13-23-33-4高4-14-24-34-4

1-1

1-2

1-3

1-4

2-1

2-2

2-3

2-4

3-1

3-2

3-3

3-4

4-1

4-2

4-3

4-4

通过上面的16张图片样本,我个人倾向开启低程度的背景去除,锐化文本这一功能重在加粗字体,可能2-2是一个不错的选择。

理由:通过观察公式中的e的u/UT次方,当超出低程度的背景去除,UT中的U就看不出来,同时“二”这个字也随着背景去除的加重而愈发看不出来。

其他的之后再说好了,懒 累了。

懒 来更新了……

上文讲到了增强扫描的使用,其功能有文字识别加上背景、文字显示情况的一些调整。

由于增强扫描所花时间较长,如果你不需要调整背景、文字粗细等,仅仅需要一个文字识别,也就是常在各种软件中提到的OCR功能,adobe acrobat DC同样提供了这样的功能,我记得有个软件 marginnote 3提供了这样的付费功能,年订阅花费68,你可以通过adobe acrobat DC所提供的文字识别功能节省一些小钱,这个操作也非常的简单。

同样是在增强扫描这一工具中,

上文中的是“增强”这一选项,而如果你只需要识别文字的功能,你只需要点击“识别文本”这一选项即可。

点击之后,选择在本文件中,有下方菜单栏出现,

我们点击“设置”,

这里有页面、你所需要识别的文字类别(中文或者其他外文)、输出的pdf类型、采样点的多少(最后这个你可以简单理解为分辨率,这个值越大越好,推荐选择600dpi)四种选项,除了最后dpi值推荐600,其他你可以根据自己需要来选择。选好之后,点击确定。

然后点击“识别文本”即可,

完成之后,你就可以进行文档的内容检索,退出之前,记得保存。

立个flag,下次更新“跳转链接的添加与使用”。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有